요인 분석 (문단 편집)

==== 식별문제 ====
identification problem

혹시 [[고등학교]] 등의 [[수학]] 시간에 "미지수의 수가 N개일 때 이를 해결하려면 최소한 N-1개 이상의 힌트가 필요하다" 는 말을 들어보았는지? 사실 [[통계적 방법]]에서 가장 설명하기 어렵다는(…) [[자유도]]의 개념과도 관련되어 있다. 모델링 연구자들이 모형에 대해 굉장히 중요하게 보는 것 두 가지 중 하나는 '''그 모형이 '식별' 될 수 있는가'''의 여부다. 이들에 따르면, 미지의 모수행렬 내에서 추정해야 할 모수의 수가 실제로 관측된 표본의 자료의 수보다 작거나 같아야 한다. 다시 말해, 모형을 검정한다는 것은 관측된 공분산 정보를 통해서 그 모형의 공분산 정보를 모두 추정할 수 있음을 전제한다. 이를 경우에 따라 '''t-규칙'''(t-rule)이라고 부르기도 한다.

가상의 등식 A×B=40 이 있다고 할 때, 우리는 가능한 두 미지수가 '정확히' 무엇인지는 알 수 없다. 어쩌면 두 미지수는 5와 8일 수도 있지만, 4와 10일 수도 있기 때문이다. 이때 이 두 미지수는 '''자유모수'''(free parameter)이며, 여기다 이것저것 넣어 보는 것이 바로 식별이다. 만일 모형의 자유도가 높아서 식별이 잘 되었다면, 그것은 곧 그 모형이 충분히 검약적이어서 여러 숫자들을 집어넣어 보기에 '빡빡하지' 않음을 의미한다. 반면 모형의 자유도가 낮다는 것은, 모형의 모수를 추정하기 위한 정보가 너무 부족하다는 것을 의미한다. 즉 모형이 너무 난잡하여 뭔가 기존의 정보로 설명이 안 되는 부분이 발생했고, 그것이 그 부분의 숫자들을 '자유롭게 풀어놓아 버린' 것이다. 이것이 바로 '''식별문제'''가 된다.

표현을 달리할 경우, 먼저 '''과소식별'''(under-identified)은 모델링에서 반드시 지양되어야 한다. 이때 자유도는 음수 값을 가지며, 이 모형은 설명이 불충분하므로 사용할 수 없다. 다음으로 '''적정식별'''(just-identified)이 있다. 이름만 들어보면 가장 좋을 것 같지만, 사실 이것도 그다지 좋지는 않다. 분석가가 가용한 모든 정보를 사용한 결과 단 하나의 고유해(unique solution)만이 도출되었기 때문이다. 이때 자유도는 0이 되며, 모형의 검정을 위해 필요한 잔여 자유도가 없기 때문에 '''[[일반화]] 가능성'''이 떨어진다. 마지막으로 '''과대식별'''(over-identified)은 이름만 들으면 뭔가 피해야 할 것 같지만 사실은 가장 좋은 상황이다(…). 모수 추정에 있어서 여러 개의 고유해가 도출될 수 있을 만큼 많은 정보를 갖고 있다는 뜻이기 때문이다. 이때 자유도는 양수 값을 가지며, 그 여러 고유해 중에서 '''관측된 공분산 정보에 가장 잘 적합되는 특정 고유해를 보고'''하는 게 분석가의 목표가 된다. 모델링에서 자유도는 모형을 갈고 닦고 다듬기 위해 필요한 '자원' 이라고도 할 수 있으므로, [[다다익선|많으면 많을수록 분석가로서는 이를 반기게 된다]].

그렇다면 과소식별 상황에서 분석가는 이 모형을 버리지 않고 살리기 위해 어떤 방법을 취해야 할까? 가장 좋은 것은 '''관측변인의 수를 증가'''시켜서 정보를 늘리는 것이다. 하지만 이제 와서 관측변인을 늘리는 것은 항상 쉬운 일이 아니다. 가용한 정보를 당장 늘릴 수 없다면, 결국 할 수 있는 일은 필요한 정보를 줄이는 것뿐이다. 즉, 분석가는 식별문제가 해결될 때까지 모형 내의 자유모수들을 하나씩 하나씩 '''고정모수로 제약'''(constraint)하면서 재확인할 수 있다. 설명하자면 이렇다. 모형 속의 모든 오차항들의 화살표들, 그리고 잠재변인들과 관측변인들의 화살표들은 저마다 숫자들이 전부 붙을 수 있는데, 이 숫자들은 앞에서 보았던 요인적재량 개념에 대응한다. 그 중에서 분석가가 모든 오차항에 연결된 화살표마다, 그리고 잠재변인마다 하나씩 고른 관측변인에 연결된 화살표마다 '''숫자 1을 임의로 부여'''하는 것이다. 이렇게 하면 '채워넣어야 할 미지수' 의 숫자가 줄어들어서 식별이 가능해질 수도 있는 것이다.

이처럼 한 잠재변인이 갖는 여러 지표변인들 중 하나의 화살표에 달린 숫자를 1.0으로 고정하는 방식을 '''준거변인'''(reference variable)의 제약이라고 부르기도 한다. 이 방법은 특히 잠재변인의 [[측정]]에 있어 그 척도화(scaling)에서도 상당히 유리하다고 알려져 있다. 하지만 다른 방식을 취할 수도 있다. 예컨대, '''단위분산'''(unit variance)을 제약하는 방식이 있다. 이 경우에는 모든 잠재변인의 분산을 1.0으로 고정하는데, 그 결과 단위분산은 모집단의 표준편차와 동일해진다. 하지만 어느 쪽을 제약하든, 결과적으로 모두 동일한 자유도와 동일한 카이자승 값을 갖게 된다고. 이 단락의 내용은 잘 모르겠다면 지도교수님이나 박사급 연구원들에게 더 많은 설명을 부탁해 보자(…).

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

요인 분석 (문단 편집)

캡챠